由于ARMA $(p, q)$ 模型的识别与估计是在假设随机扰动项是白噪声的基础上进行的, 因此, 如果估计的模 型确认正确的话, 残差应代表一白噪声序列。 如果所估计的模型计算的样本残差不代表一白噪声,则说明模型的识别与估计有误, 需重新识别与估计。 在实际检验时, 主要检验残差序列是否存在自相关。
可用QLB的统计量进行 $\chi 2$ 检验: 在给定显著性水平下, 可计算不同滞后期的QLB值, 通过与 $\chi 2$ 分布表中的相应临 界值比较, 来检验是否拒绝残差序列为白噪声的假设。若大于相应临界值, 则应拒绝所估计的模型, 需重新识别与估计。
另外一个遇到的问题是, 在实际识别ARMA $(p, q)$ 模型时, 需多次反复尝试, 有可能存在不止一组 $(p, q)$ 值都能通过识别 检验。 显然, 增加 $p$ 与 $q$ 的阶数, 可增加拟合优度, 但却同时降低 了自由度。 因此, 对可能的适当的模型, 存在着模型的 “简洁性”与 模型的拟合优度的权衡选择问题。
常用的模型选择的判别标准有: 赤池信息法(Akaike information criterion, 简记为 $\mathbf{A I C}$ )与施瓦兹贝叶斯法 (Schwartz Bayesian criterion, 简记为 $\mathrm{SBC}$ ) : $$ \begin{aligned} &A I C=T \ln (R S S)+2 n \\ &S B C=T \ln (R S S)+n \ln (T) \end{aligned} $$ 其中, $n$ 为待估参数个数 $(p+q+$ 可能存在的常数项), $\mathrm{T}$ 为 可使用的观测值, RSS为残差平方和 ( Residual sum of squares) 在选择可能的模型时, AlC与SBC越小越好 显然, 如果添加的滞后项没有解释能力, 则对RSS值的减小没有多大帮助, 却增加待估参数的个数, 因此使得AIC或SBC 的值增加。 需注意的是:在不同模型间进行比较时, 必须选取相同的时间段。